보상모델은 명시적인 정답이 없는 환경에서, 주어진 출력(예: 텍스트 응답)의 품질을 정량적으로 평가하기 위해 학습된 예측 모델이다. 강화학습의 보상 함수가 정의되어 있지 않거나 직접 계산하기 어려울 때, 인간 또는 AI 피드백을 바탕으로 이 보상모델을 학습하여 대체한다.
1) 보상모델의 개념
보상모델은 입력(프롬프트)과 응답 쌍에 대해 '얼마나 좋은 응답인가?'를 판단하여 수치적인 점수(보상)를 예측하는 모델이다. 이 모델은 보통 인간 또는 AI가 직접 비교 평가한 데이터를 기반으로 훈련된다. 이후 강화학습(RL)에서 보상 함수로 사용된다.
2) 주요 구성 요소
입력 쌍: 프롬프트와 여러 개의 응답
순위 데이터: 어떤 응답이 더 좋은지를 나타내는 비교 정보
보상 예측기: 각 응답의 품질을 점수로 출력하는 모델
손실 함수: 선호 순위에 맞는 점수가 예측되도록 최적화
3) 학습 절차
보상모델은 일반적으로 다음 절차를 통해 학습된다.
사전 학습된 언어모델로 여러 개의 응답을 생성한다.
사람 또는 AI가 응답 간의 선호도를 비교하여 순위를 매긴다.
이 데이터를 기반으로 보상모델을 학습한다 (예: 선호 기반 페어와이즈 손실 사용).
보상모델은 이후 RL의 보상 함수로 사용된다.
4) 강화학습과의 통합
보상모델은 RLHF(RL with Human Feedback) 또는 RLAIF(RL with AI Feedback)에서 다음과 같은 방식으로 사용된다.
보상모델은 언어모델이 생성한 응답에 대해 점수를 부여한다.
이 점수를 보상으로 하여 PPO(Proximal Policy Optimization) 등 강화학습 알고리즘이 언어모델을 업데이트한다.
결과적으로 더 자연스럽고 인간 친화적인 응답이 생성된다.
5) 활용 사례
ChatGPT / GPT-4: RLHF 단계에서 보상모델을 사용하여 사용자 응답 품질 개선
AI 윤리: 유해하거나 편향된 응답을 낮은 보상으로 학습
다중 언어 평가: 인간 번역 평가 대신 AI 보상모델 사용
“보상모델은 인공지능이 ‘좋은’ 출력을 정의하고 배울 수 있도록 해주는 중요한 구성 요소다.” – OpenAI 기술 문서